|
1.
基于潜在狄利克雷分配模型和互信息的无监督特征选取法
董元元 陈基漓 唐小侠
计算机应用
2012, 32 (08):
2250-2257.
DOI: 10.3724/SP.J.1087.2012.02250
为解决互信息(MI)在特征选取中的类别缺失和倾向低频词问题,提出 LDA-σ方法。该方法使用潜在狄利克雷分配模型(LDA)提取潜在主题,以“词—主题”间互信息的标准差作为特征评估函数。在Reuters-21578语料集上提取特征词并进行分类,LDA-σ方法的微平均F1最高达0.9096;宏平均F1优于其他算法,最高达0.7823。实验表明,LDA-σ方法可用于文本特征选取。
参考文献 |
相关文章 |
多维度评价
|
|